Python-এর Pandas লাইব্রেরি ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণের জন্য দুটি প্রধান ডেটা স্ট্রাকচার সরবরাহ করে: DataFrame এবং Series। এগুলির সাহায্যে আপনি সহজে টেবিল আকারে ডেটা পরিচালনা করতে পারেন, যেমন কলাম এবং সারি নিয়ে কাজ করা। এদের মধ্যে পার্থক্য এবং ব্যবহার বুঝতে হলে প্রথমে এদের মৌলিক ধারণা জানা দরকার।
১. Series:
Series হল Pandas এর একটি মৌলিক ডেটা স্ট্রাকচার, যা একমাত্র একটি ভেক্টরের মতো কাজ করে, এবং এটি একটি একমাত্র কলামের ডেটার প্রতিনিধিত্ব করে। Series একটি একমাত্রিক (1D) আ্যারে যা লেবেলযুক্ত ডেটা ধারণ করে।
মৌলিক বৈশিষ্ট্য:
- এটি একমাত্র ডেটা কলাম ধারণ করে (যেমন, একটি মাত্র তালিকা বা অ্যারে)।
- প্রতিটি উপাদানের সাথে একটি index (ইন্ডেক্স) থাকে যা তার অবস্থান নির্দেশ করে।
- Series সাধারণত সংখ্যাত্মক, স্ট্রিং অথবা অন্য যে কোন ডেটা টাইপ ধারণ করতে পারে।
উদাহরণ:
import pandas as pd
# একটি সিম্পল Series তৈরি করা
data = [10, 20, 30, 40, 50]
series = pd.Series(data)
# সিরিজটি দেখানো
print(series)
আউটপুট:
0 10
1 20
2 30
3 40
4 50
dtype: int64
এখানে, সিরিজটি একটি একমাত্র ডেটা কলাম ধারণ করে, এবং প্রতিটি উপাদানের একটি ইন্ডেক্স (0, 1, 2, 3, 4) থাকে।
Index সহ Series:
Series তৈরি করতে ইন্ডেক্স প্রদান করা সম্ভব:
series_with_index = pd.Series(data, index=["a", "b", "c", "d", "e"])
print(series_with_index)
আউটপুট:
a 10
b 20
c 30
d 40
e 50
dtype: int64
এখানে, প্রতিটি ডেটা উপাদান একটি নির্দিষ্ট ইন্ডেক্স (a, b, c, d, e) দ্বারা চিহ্নিত।
২. DataFrame:
DataFrame হল একটি দ্বিমাত্রিক (2D) টেবিল ডেটা স্ট্রাকচার, যা কলাম এবং সারি নিয়ে গঠিত। এটি এক বা একাধিক Series এর সমষ্টি, এবং প্রতিটি Series একটি নির্দিষ্ট কলাম প্রতিনিধিত্ব করে।
মৌলিক বৈশিষ্ট্য:
- এটি একাধিক কলাম ধারণ করতে পারে, যেখানে প্রতিটি কলাম একটি Series।
- প্রতিটি কলামের জন্য একটি আলাদা index থাকতে পারে।
- DataFrame সাধারণত ডেটা বিশ্লেষণ, টেবিল আকারে ডেটা দেখানো এবং পরিচালনার জন্য ব্যবহৃত হয়।
উদাহরণ:
import pandas as pd
# ডেটার একটি dictionary তৈরি করা
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'Age': [24, 27, 22, 32, 29],
'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}
# DataFrame তৈরি করা
df = pd.DataFrame(data)
# DataFrame প্রদর্শন
print(df)
আউটপুট:
Name Age City
0 Alice 24 New York
1 Bob 27 Los Angeles
2 Charlie 22 Chicago
3 David 32 Houston
4 Eva 29 Phoenix
এখানে, DataFrame তে তিনটি কলাম (Name, Age, City) এবং পাঁচটি সারি রয়েছে। প্রতিটি কলামের একটি নাম (যেমন, "Name", "Age", "City") এবং প্রতিটি সারির একটি ইন্ডেক্স (0, 1, 2, 3, 4) রয়েছে।
Index সহ DataFrame:
DataFrame এ কলামের নাম এবং সারির ইন্ডেক্স কাস্টমাইজ করা যেতে পারে:
df_custom_index = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
print(df_custom_index)
আউটপুট:
Name Age City
a Alice 24 New York
b Bob 27 Los Angeles
c Charlie 22 Chicago
d David 32 Houston
e Eva 29 Phoenix
এখানে, DataFrame-এর সারির ইন্ডেক্স পরিবর্তন করা হয়েছে (a, b, c, d, e)।
DataFrame এবং Series এর মধ্যে পার্থক্য
| বৈশিষ্ট্য | Series | DataFrame |
|---|---|---|
| আয়তন | একমাত্রিক (1D) | দ্বিমাত্রিক (2D) |
| ডেটা | একটি কলামের ডেটা | একাধিক কলামের ডেটা |
| ইন্ডেক্স | একটি একক ইন্ডেক্স (প্রত্যেক উপাদানের জন্য) | একাধিক কলামের জন্য পৃথক পৃথক ইন্ডেক্স |
| ডেটার ধরন | সংখ্যাত্মক, স্ট্রিং বা অন্যান্য ডেটা | একাধিক ধরন: সংখ্যাত্মক, স্ট্রিং, টাইমস্ট্যাম্প |
| উদাহরণ | একটি কলামের ডেটা (যেমন, একক বৈশিষ্ট্যের তালিকা) | একাধিক বৈশিষ্ট্য, যেমন নাম, বয়স, শহর |
| ব্যবহার | সাধারণত একক বৈশিষ্ট্য বিশ্লেষণ | টেবিল আকারে ডেটা বিশ্লেষণ এবং ব্যবস্থাপনা |
সারাংশ
- Series: এটি Pandas এর একটি একমাত্রিক ডেটা স্ট্রাকচার, যা এক কলামের ডেটা ধারণ করে। এর সাথে একটি ইনডেক্স থাকে, যা প্রতিটি উপাদানকে চিহ্নিত করে।
- DataFrame: এটি Pandas এর একটি দ্বিমাত্রিক ডেটা স্ট্রাকচার, যা একাধিক কলাম এবং সারি নিয়ে গঠিত। এটি Series-এর একটি সংগ্রহ যা একত্রে ডেটা টেবিলের মতো কাজ করে।
Pandas DataFrame এবং Series উভয়ই ডেটা বিশ্লেষণ ও প্রক্রিয়াকরণের জন্য অত্যন্ত গুরুত্বপূর্ণ, এবং এগুলির সাহায্যে আপনি সহজে ডেটা ম্যানিপুলেশন এবং বিশ্লেষণ করতে পারেন।
Read more